Guía de Programación CUDA: Fundamentos del Desarrollo de Núcleos CUDA

El desarrollo de núcleos CUDA comienza con la definición de un núcleo, que es una función especializada de C++ diseñada para ejecutarse en paralelo a través del gran número de núcleos de un GPU de NVIDIA. Estas funciones representan la unidad básica de trabajo en el modelo de programación CUDA, actuando como el puente donde la lógica secuencial del host se transforma en una ejecución masivamente paralela en el dispositivo.

1. El especificador global

El __global__ es un especificador de declaración obligatorio que indica al compilador generar código para la GPU manteniendo el punto de entrada de la función visible desde el CPU. Las funciones que se ejecutan en la GPU y que pueden ser invocadas desde el host se denominan núcleos.

2. Entorno de Ejecución

Los núcleos se envían y ejecutan en Multiprocesadores de Flujo (SMs). El SM es el motor computacional principal dentro de una GPU de NVIDIA responsable de gestionar cientos de hilos concurrentes. Cada SM maneja bloques de hilos y los programa en los núcleos de procesamiento.

Regla de Sintaxis: Los núcleos deben devolver estrictamente void. Debido a que operan de forma asíncrona respecto al host, no pueden devolver un valor directamente al CPU; deben escribir los resultados de vuelta en la memoria de dispositivo asignada.

TERMINALbash — 80x24

> Ready. Click "Run" to execute.

QUESTION 1

What is the primary function of the __global__ specifier?

It defines a function that runs on the CPU but is callable from the GPU.

It defines a kernel that runs on the GPU and is callable from the CPU.

It allocates memory on the GPU's SM cache.

It synchronizes all threads in a block.

✅ Correct!

Correct! __global__ is the bridge used to launch kernels from Host code.

❌ Incorrect

Incorrect. __global__ specifically identifies entry-point kernels for GPU execution called by the Host.

QUESTION 2

Why must CUDA kernels return void?

Because they execute asynchronously and have no direct path to return values to the Host thread.

To save registers on the SM.

Because GPU memory is read-only.

The NVCC compiler does not support float returns.

QUESTION 3

Which hardware component is responsible for managing and executing threads in a CUDA kernel?

The PCIe Controller.

The Streaming Multiprocessor (SM).

The Host RAM controller.

The BIOS.

QUESTION 4

What happens when a Host calls a kernel function?

The CPU halts until the GPU finish processing.

The GPU creates a clone of the function for every available SM.

The kernel is enqueued for execution on the GPU, and the CPU continues to the next instruction.

The CPU performs a context switch to the GPU.

QUESTION 5

Which of the following is the correct definition of a CUDA kernel?

A function that executes on the GPU and is invoked from the Host.

A C++ library for file I/O.

A hardware driver for NVIDIA GPUs.

A standard CPU function with the __gpu__ prefix.

1. El especificador __global__

2. Entorno de Ejecución

1. El especificador global